Deep generative models for clustering = a semi-supervised and unsupervised approach



Trabalho

Ano: 2018

Tipo: Dissertação

Agência fin.: CNPq

Grau: Mestrado

Disciplina: Ciência da Computação

Universidade (IES): UNICAMP

Faculdade/Departamento: Instituto de Computação

Programa: Mestrado em Ciência da Computação

Fonte de dados: UNICAMP DSpace

Autor: Arias Figueroa, Jhosimar George

Orientador: Gerberth Adín Ramírez Rivera


Assunto: Redes neurais (Computacao),Aprendizado de maquina,Visao por computador,Analise por agrupamento,Variaveis latentes,Neural networks (Computer science),Machine learning,Computer vision,Cluster analysis,Latent variables


Resumo: Resumo: Algoritmos de agrupamento estão comumente relacionados à aprendizagem não supervisionada onde nenhum dado rotulado está disponível. No entanto, em muitas situações, uma pequena quantidade de informação está disponível, essa informação pode ajudar a orientar o processo de aprendizagem usando dados rotulados e não-rotulados, i.e., aprendizagem semi-supervisionada. Nesta tese, nosso objetivo é resolver ambos tipos de problemas com a ajuda de modelos generativos profundos os quais são modelos probabilísticos que aprendem alguma estrutura oculta subjacente dos dados de forma não supervisionada. Em primeiro lugar, visamos resolver o caso semi-supervisionado, propondo um modelo para aprender uma representação latente da categoria-característica dos dados, que é guiada por uma tarefa auxiliar semi-supervisionada. O objetivo desta tarefa auxiliar é atribuir rótulos aos dados não rotulados e regularizar o espaço de características. Nosso modelo é representado por uma versão modificada de um autoencoder variacional categórico, i.e., um modelo generativo probabilístico que aproxima uma distribuição categórica com inferência variacional. Nós nos beneficiamos da arquitetura do autoencoder para aprender poderosas representações com redes neurais profundas de forma não supervisionada e para otimizar o modelo com tarefas semi-supervisionadas. Derivamos uma função de perda que integra o modelo probabilístico com nossa tarefa auxiliar para orientar o processo de aprendizagem. Os resultados experimentais mostram a eficácia do nosso método alcançando resultados competitivos em relação aos métodos do estado da arte usando menos de 1% de exemplos rotulados no conjunto de dados MNIST, SVHN e NORB. Por último, visamos resolver o caso não supervisionado, propondo um modelo para aprender os agrupamentos e as representações dos nossos dados de uma maneira end-to-end. Nosso modelo proposto é uma modificação do modelo generativo empilhado M1+M2 aplicado ao aprendizado semi-supervisionado, no qual, modelamos nossos agrupamentos com a distribuição Gumbel-Softmax e consideramos o uso de um autoencoder determinístico para aprender características latentes, evitando o problema de variáveis estocásticas hierárquicas. Os resultados experimentais em três conjuntos de dados mostram a eficácia do nosso modelo alcançando resultados competitivos com o estado da arte. Além disso, mostramos que nosso modelo gera amostras realistas


Abstract: Abstract: Clustering algorithms are commonly related to unsupervised learning where no labeled data is available. However, in many situations, a small amount of information is available, this information may help to guide the learning process by using both labeled and unlabeled data, i.e. semi-supervised learning. In this thesis we aim to solve both type of problems with the help of deep generative models which are probabilistic models that learn some underlying hidden structure of the data in unsupervised way. Firstly, we aim to solve the semi-supervised case by proposing a model to learn a feature-category latent representation of the data, that is guided by a semi-supervised auxiliary task. The goal of this auxiliary task is to assign labels to unlabeled data and regularize the feature space. Our model is represented by a modified version of a Categorical Variational Autoencoder, i.e., a probabilistic generative model that approximates a categorical distribution with variational inference. We benefit from the autoencoder¿s architecture to learn powerful representations with Deep Neural Networks in an unsupervised way, and to optimize the model with semi-supervised tasks. We derived a loss function that integrates the probabilistic model with our auxiliary task to guide the learning process. Experimental results show the effectiveness of our method achieving competitive results against the state-of-the-art methods by using less than 1% of labeled examples on the MNIST, SVHN and NORB datasets. Lastly, we aim to solve the unsupervised case by proposing a model to learn both clusters and representations of our data in an end-to-end manner. Our proposed model is a modification of the stacked generative model M1+M2 applied to semi-supervised learning, in which, we model our clusters with the Gumbel-Softmax distribution and we consider the use of a deterministic autoencoder to learn latent features, avoiding the problem of hierarchical stochastic variables. Experimental results on three datasets show the effectiveness of our model achieving competitive results with the state-of-the-art. Moreover, we show that our model generates realistic samples,\$aCiência da Computação,\$a132848/2015-5,\$aCNPQ


Referência: ARIAS FIGUEROA, Jhosimar George. Deep generative models for clustering = a semi-supervised and unsupervised approach. 2018. 1 recurso online (97 p.). Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em:

Tags: